Análisis de subespacio de bajo rango en intervenciones de LLM
Descubre cómo las intervenciones en LLMs generan efectos secundarios no deseados. Analizamos subespacios compartidos y su impacto en el control de seguridad.
Descubre cómo las intervenciones en LLMs generan efectos secundarios no deseados. Analizamos subespacios compartidos y su impacto en el control de seguridad.